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摘要 作答 选择 题 可 被 看 作 从 噪音 中 提取 信号 的 过 程 ， 研 究 提 出 了 一 种 基于 信号 检测 论 的 认 
知 诊断 模型 (SDT-CDM)。 新 模型 的 优势 在 于 ;(1) 无 需 对 选项 进行 属性 层面 的 编码 。(2) 能 获 
得 传统 诊断 模型 无 法 提供 的 题目 区 分 度 和 难度 参数 。(3) 可 以 直接 表达 每 个 选项 之 间 的 合理 
性 差异 ， 对 题目 性 能 刻画 更 加 细微 全 面 。 两 个 模拟 研究 结果 表明 : (DEM 算法 可 以 实现 对 新 
模型 的 参数 估计 过 程 ， 便 捷 有 效 。(2)SDT-CDM 具备 良好 性 能 ， 分 类 准确 性 和 参数 估计 精度 
较 高 以 外 ， 还 能 提供 选项 层面 的 估计 信息 ， 用 于 题目 质量 诊断 与 修订 。(3) 属 性 数量 、 题 目 


质量 与 样本 量 等 因素 会 影响 SDT-CDM 的 表现 。(4) 与 称 名 诊断 模型 NRDM 相 比 , SDT-CDM 
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在 所 有 实验 条 件 下 对 被 试 的 分 类 准确 性 更 高 。 实 证 研究 表明 : SDT-CDM 比 NRDM 具有 更 
好 的 模型 数据 拟 合 结果 ,其 分 类 准确 性 和 一 致 性 更 高 , 尤其 当 属 性 考察 次 数 较 少时 具有 很 强 
的 稳定 性 ， 难 度 和 区 分 度 参 数 与 IRT 模型 估计 结果 的 相关 性 也 更 高 ， 值 得 推广 。 
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1 引言 


自 Kelly(1916) 第 一 次 提出 选择 题 (Multiple-Choice, MC) 测 验 形式 ， 因 其 客观 、 有 效 、 便 


捷 等 特点 而 广 受 欢迎 , 直至 当下 仍 是 测验 主流 题 型 之 一 , 并 广泛 应 用 在 TIMSS、 PISA、NAEP 
和 TOEFL 等 标准 化 测验 。MC 题 型 具有 诸多 优势 : 不 受 主 观 误差 影响 、 提 高 测验 信和 度 、 易 
于 批阅 且 计 分 快速 、 满 足 内 容 平 衡 需求 等 ( 郭 舌 ,周文 杰 , 2021)。 通 常 ，MC 作答 数据 被 当 作 
0-1 计 分 形式 ( 即 答对 或 答 错 ) 处 理 ， 但 这 样 会 造成 干扰 项 信息 的 损失 。 为 了 充分 挖掘 干扰 项 
的 诊断 信息 ， 提 高 个 体 知识 状态 的 分 类 精度 ， 研 究 者 提出 了 许多 方法 ， 如 MC-DINA 模型 


(Multiple-Choice DINA; de la Torre, 2009) 及 其 拓展 的 结构 化 MC-DINA 模型 (Ozaki, 2015), 包 
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含 干扰 项 信息 的 SICM 模型 (Scaling Individuals and Classifying Misconceptions Model; 
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Bradshaw & Templin, 2014) 和 GDCM-MC 模型 (Generalized Diagnostic Classification Models 


for Multiple Choice Option-Based Scoring; DiBello et al., 2015), 以 及 基于 选项 层面 的 非 参 数 认 


知 诊断 方法 ( 郭 舌 等 , 2021; Wang et al., 2023)。 这 些 方法 的 目标 是 在 知识 状态 空间 中 对 被 试 
进行 分 类 ， 从 而 知晓 其 学 科 知 识 或 认 知 属性 的 掌握 情况 , 这 种 评估 方式 也 被 称 作 认 知 诊断 评 
fm. 但 上 述 MC 处 理 方法 有 个 前 提 条 件 ， 即 要 求 对 干扰 项 进行 编码 ， 然 后 才能 表征 出 区 别 于 
正确 选项 所 表征 的 潜在 类 别 。 虽 然 前 期 的 研究 要 求 干扰 项 的 编码 需要 是 正确 选项 编码 的 子 集 、 
不 同 干扰 项 之 间 也 要 有 包含 关系 ( 郭 磊 等 , 2013)， 但 最 近 的 研究 已 突破 了 该 限制 ， 即 干扰 项 
的 编码 无 需 租 套 于 正确 选项 编码 中 (Wang et al., 2023)， 进 一 步 推动 了 该 领域 研究 。 

实际 上 ，MC 测验 也 可 以 被 视 作 一 种 信号 检测 任务 ， 被 试 需 从 一 系列 的 噪音 (所 有 选项 ) 
背景 中 选择 出 信号 ， 即 做 出 正确 反应 。 被 试 作答 过 程 中 存在 两 种 可 能 性 ， 要 么 “会 答 /知道 
(Know)”， 要 么 “不 会 答 / 不 知道 (do not Know)”。 从 信号 检测 论 (signal detection theory, SDT) 
的 视角 出 发 ， 被 试 作答 行为 可 包含 两 个 阶段 : 感知 阶段 : 被 试 在 理解 题 意 后 对 每 个 选项 产 
生 不 同 程度 的 合理 性 2(plausibility) 判 断 ， 可 用 合理 性 参数 表达 ， 每 个 选项 的 合理 性 参数 均 服 
从 一 定 分 布 .@ 决 策 阶 段 :被 试 在 权衡 每 个 选项 的 合理 性 后 , 会 做 出 选择 最 合理 选项 的 决策 。 
:于 该 理念 ， DeCarlo(2021) 将 SDT 与 项 目 反 应 理论 IRT) 结 合用 于 MC 题目 分 析 , 通过 SDT 
模型 可 获得 被 试 在 选择 各 选项 时 的 相对 合理 性 参数 、 以 及 题目 的 区 分 度 和 难度 参数 信息 。 研 
究 表 明 ，SDT 模型 估计 得 到 的 难度 参数 与 两 参数 、 三 参数 项 目 反 应 模型 基本 一 致 ， 但 区 分 
度 参数 仅 与 两 参数 模型 相关 较 高 ， 与 三 参数 模型 相关 低 至 0.04。 此 外 ，SDT 还 可 以 提供 更 
丰富 的 信息 ,如 被 试 对 每 个 选项 尤其 是 干扰 项 的 合理 性 倾向 ， 以 及 被 试 在 每 个 选项 上 感知 到 
的 合理 性 差异 ( 即 选项 差异 )。 因 此 ，SDT 对 题目 的 解析 更 细微 ， 可 以 从 选项 层面 知晓 题目 的 
整体 情况 ， 其 价值 在 于 : 若菜 道 题目 偏 简单 ， 为 了 增 大 该 题目 难度 ， 可 以 通过 估计 得 到 的 
选项 合理 性 参数 进行 选项 层面 的 针对 性 调整 , 起 到 修订 题目 的 作用 。@ 诊 断 题目 是 否 有 问题 。 
当 被 试 “会 答 ”该 题目 时 ,选择 干扰 项 的 倾向 性 仍 比 选择 正确 选项 的 倾向 性 更 大 ， 则 预示 着 该 
题目 的 质量 出 现 了 问题 。 以 上 优势 是 两 参数 和 三 参数 模型 无 法 做 到 的 。 此 外 ，SDT 对 MC 
题目 的 分 析 要 比 称 名 反应 模型 (Nominal Response Model, NRM; Bock, 1972) 更 加 简洁 易于 解 
TÉ. AE NRM 也 可 分 析 基 于 选项 的 数据 ， 但 它 引 入 了 多 个 区 分 度 参 数 ， 使 得 参数 估计 和 结 
果 解 释 都 变 得 复杂 。 若 进一步 想 在 NRM 中 表征 猜测 行为 的 话 ,又 需要 引入 更 多 的 猜测 参数 ， 


这 会 导致 模型 参数 增多 并 且 难 以 估计 (Thissen & Steinberg, 1997), 但 SDT 模型 无 需 增 加 额外 
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? 合理 性 可 理解 为 基于 个 人 知识 、 经 验 等 因素 认为 该 选项 是 正确 的 /合理 的 倾向 性 。 
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参数 便 可 对 猜测 
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行 表征 ， 更 加 简约 。 并 且 


模型 比 NRM 有 更 好 的 模型 拟 合 结果 。 


尽管 在 认 知 诊断 评估 中 ，Templin 等 (2008) 将 NRM 拓展 为 称 名 反应 诊断 模型 (Nominal 


Response Diagnostic Model, NRDM)， 使 之 能 够 分 析 认 知 诊断 的 数 所 
Torre(2016) 提 出 了 顺序 G-DINA(sequential G-DINA) 的 模型 
现 对 顺序 (ordered) 和 称 名 数据 的 处 理 。 但 这 些 模 


了 NRM 存在 的 问题 ， 如 题目 参数 过 多 
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节省 大 量 人 力 物 力 。 


模型 和 数据 的 拟 合 可 


综 上 所 述 , 信号 检测 论 视角 的 MC 题 型 认 知 诊断 评估 
基于 信号 检测 论 的 MC 题 型 认 知 诊断 评估 方法 与 技术 ,构建 SDT-CDM 模型 并 
检验 新 模型 的 性 能 和 有 效 性 。 本 文 结构 如 下 : 首先 介绍 SDT 


次 阐述 SDT 诊断 模型 ( 记 作 SDT-CDM) 的 构建 过 程 和 参数 估计 方法 , 之 


计 方 法 ,并 在 模拟 和 实证 测验 
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模型 的 逻辑 背景 


项 。 


具有 重要 意义 。SDT 


因此 ， 基 于 SDT 视角 分 析 选 项 
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选项 水 平分 析 结 果 的 前 提 下 , 还 可 以 使 ) 
表达 方式 来 达到 比 NRDM 模型 更 好 的 解释 意义 ， 参 数 更 容易 估计 。GB) 由 于 模型 更 加 人 简洁， 
能 会 进一步 提升 。 外 能 够 提供 传统 诊断 模型 无 法 提供 的 
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型 均 是 基于 最 初 NRM 思想 
等 问题 : 每 道 题目 的 每 个 选项 都 要 估计 和 截 吕 


民 据 DeCarlo(2021) 的 实证 研究 ;表明 ，SDT 
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的 拓展 ， 也 保留 


E 项 、 主 效 


的 诊断 数据 ， 并 探讨 
于 认 知 诊断 评估 有 以 下 优势 ，@ 无 需 对 MC 题目 的 选项 进行 编码 ， 


更 加 精简 的 模型 


适用 
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成 认为 该 选项 是 正确 


选项 的 合理 性 倾向 均 服 从 一 个 概率 分 布 ， 如 图 
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1 所 示 。 


3 600 名 被 试 参与 的 32 


道 题 


的 学 术 评 估 测 试 (Scholastic Assessmen 


4 传统 诊断 模型 没有 难度 参数 的 


体 表 达 ， 而 


区 分 度 是 通过 估计 得 到 参数 后 计算 才能 得 至 
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LATA AULAS. 因此 本 文 拟 探讨 


E 导 其 参数 估 


究 探 讨 SDT-CDM 的 性 能 ， 最 后 对 结果 进行 讨论 与 展望 。 


目 时 ,首先 会 对 每 个 选项 产生 不 同 程度 的 感知 , 进而 将 这 种 感知 转换 
的 合理 性 倾向 。 为 了 用 模型 表达 出 该 加 工 过 程 ， 可 认为 被 试 对 每 个 


H 5 个 选项 。 


t Test, SAT)， 每 道 题 


3 


lo 


b,0 b,b, (b,+ d) 
=> 


一 BH 


easiness  easiness 


don't know 


know 


图 1 SDT 模型 的 反应 示意 图 ( 取 自 DeCarlo, 2021; P3, Figure 1) 


图 1 呈现 了 SDT 的 反应 过 程 ， 假 设 茶 四 选 一 的 MC 题目 ， 选 项 分 别 是 A、B、C ID, 


正确 答案 为 B。 一 方面 ， 若 被 试 不 会 作答 该 题目 ， 


作答 ， 感 知 越 合 理 的 选项 其 分 布 越 靠 右 ， 如 图 1 
被 试 会 选择 感知 到 合理 性 最 强 的 那个 选项 ， 在 该 


C>B>D>A， 即 被 试 最 有 可 能 选择 C 选项 ， 其 位 置 最 靠 右 端 。 为 了 实现 模型 参数 估计 ， 需 要 


性 参数 作为 参照 组 ,通常 将 最 后 一 个 选项 DD 的 参数 固定 为 0。 因此, 各 


固定 茶 个 选项 的 合理 


选项 合理 性 的 相对 差异 大 小 可 由 各 选项 离开 “0” 的 距离 进行 表示 ， 该 例子 中 A、B 和 C 选项 


他 就 会 凭借 自己 感知 到 各 个 选项 的 合理 性 
实 线 分 布 所 示 。 当 感知 之 后 便 是 决策 过 程 : 


列子 中 被 试 感知 选项 合理 性 的 大 小 依次 为 : 


的 合理 性 参数 被 标记 为 bp?、bs 和 b3， 它 们 可 类 比 为 多 级 计 分 模型 中 的 闵 值 参数 。 另 一 方面 ， 


若 被 试 “ 会 答 ”该 题目 ， 那 么 被 试 对 正确 选项 B 


布 就 会 漂移 至 最 右 端 ， 即 
择 正 确 答案 B” 的 反应 。 


感知 到 的 合理 性 就 最 强 ， 正 确 选项 B 的 分 


图 中 虚线 分 布 位 置 ， 由 于 此 时 B 处 于 最 右 端 ， 因 此 被 试 将 做 出 “ 选 


如 图 1 所 示 ，B 和 "B 分 布 之 间 的 距离 4 可 作为 被 试 “ 会 答 ” 和 “不 会 答 ” 时 选择 正确 选 
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项 的 差异 ， 即 题目 区 分 度 参 数 d， 该 参数 与 IRT 中 区 分 度 a 参 数 作用 相似 。 显 然 ，d 越 大 ， 题 
目的 区 分 度 越 高 。 若 qd 为 负 值 ， 表 明 题 目 存 在 问题 ，“ 不 会 答 ” 该 题 的 被 试 反 而 比 “ 会 答 ” 
玄 题 目的 被 试 更 容易 答对 题目 , 可 以 考虑 修改 或 删除 该 题 。 此 外, DeCarlo(2021) 根 据 被 试 “不 


会 答 ” 与 “会 答 ” 题 目的 情况 ,定义 了 题目 的 两 个 易 度 参数 5;， 即 epk (easiness don't-know) 与 


ey (easiness know)， 两 者 含义 均 为 被 试 感知 到 的 了 


的 差 值 。 具 体 地 ， 如 


5 SDT 模型 中 的 两 类 易 度 参数 与 项 目 
越 大 ， 表 明 题 目 越 简 


E 确 选项 的 合理 性 与 剩余 最 高 的 合理 性 之 间 


图 1 示例 : QD 若 被 试 “不 会 答 ” 题 目 ， 其 感知 到 的 A、B、C 与 D 选项 


单 
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反应 模型 中 的 难度 b 参数 为 反 向 理解 , 即 易 度 参数 取 值 


的 合理 性 分 别 为 Bb?、b。、bs 和 bs， 此 时 的 易 度 参 数 为 epx， 并 且 有 epk = bz 一 bs; DEWA 
“会 答 ” 题 目 ， 其 感知 到 的 四 个 选项 的 合理 性 分 别 为 bj?、bs + d、bs 和 pb4， 此 时 的 易 度 参数 
为 exv， 并 且 有 ek = b; + d — bs = epg + d. 

SDT 模型 中 的 区 分 度 d 可 用 于 衡量 题目 质量 , 并 且 有 4d = ex — epg Xt T epic a» 当 epk 
为 负 且 越 小 时 ， 表 明 “ 不 会 答 ” 题 目的 被 试 选 择 正确 选项 的 概率 越 小 “不 会 答 ”的 被 试 更 
可 能 选择 干扰 项 ， 符 合 测验 逻辑 ， 而 当 enpk 为 正 且 越 大 时 则 违反 测验 逻辑 。 而 对 于 er 而 言 ， 
有 与 epk 相 反 的 含义 : 当 ek 为 正 且 越 大 时 ， 表 明 “ 会 答 ” 题 目的 被 试 选择 正确 选项 的 概率 越 
Ky “会 答 ”的 被 试 更 可 能 选择 正确 选项 ， 符 合 测验 逻辑 ， 而 当 er 为 负 且 越 小 时 则 违反 测验 
逻辑 。 因 此 ， 当 enk 为 正 且 越 大 或 ek 为 负 且 越 小 时 ， 题 目 质量 都 存在 问题 ， 可 以 考虑 修改 或 
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通过 上 述 对 d、epk、ek 等 参数 作用 的 理解 ， 可 以 感受 到 SDT 模型 在 评价 题目 质量 与 指 
导 题目 修改 方面 的 优势 。 在 实际 测验 中 ，MC 题目 质量 通常 无 法 保证 ， 即 使 大 型 测验 也 会 出 
现 猜测 概率 较 高 的 情况 , 如 DeCarlo(2021) 分 析 的 32 道 SAT12 题目 中 , 就 有 17 道 题目 的 epx 
为 正 、2 道 题目 的 ex 为 负 的 情况 出 现 。 通过 SDT 模型 可 以 简单 高 效 地 筛选 出 有 问题 的 题目 ， 
并 且 能 够 指导 题目 的 修改 ， 非 常 有 价值 。 


基于 上 述 理论 基础 ，SDT 模型 本 质 上 是 一 个 混合 模型 ， 如 公式 (TD) 所 示 ( 详 细 推导 请 参见 


DeCarlo(2021)): 
ebjm+d ,jX jm ebjm 
Pim(bim dj, X, Aj) = Ai TH, ePm AA + (1— i) Fr bin (1) 


FEA, Pin 表示 被 试 在 第 j 题 上 选择 第 m 个 选项 (m = 1.…,M) 的 概率 ,， MZ MC 题目 选项 的 总 
个 数 。X 是 一 个 混合 参数 ， 用 以 表示 被 试 i 会 作答 题目 的 概率 ， 取 值 在 0-1 之 间 。bjm/bjn 为 
题目 在 第 m/h 个 选项 上 的 合理 性 参数 ,dj 为 题目 j 的 区 分 度 。%m/Xin 为 示 性 函数 ,表示 选项 m/h 
是 否 为 正确 答案 , 若是 则 取 1, 否则 取 0。 模型 前 半 部 分 表示 被 试 会 作答 题目 时 , 选择 第 m 个 
选项 占 所 有 选择 可 能 性 的 百分比 ， 后 半 部 分 表示 被 试 不 会 作答 题目 时 的 情况 。 
3 SDT-CDM 的 构建 及 参数 估计 

为 了 将 SDT 用 于 认 知 诊断 评估 ， 构 建 出 基于 信号 检测 论 的 认 知 诊断 模型 SDT-CDM, 
需要 满足 : OLE SDT 模型 中 表征 出 被 试 的 知识 状态 用 以 进行 分 类 诊断 。 四 被 试 知 识 状 态 和 
题目 g 向 量 之 间 的 相互 作用 需要 反映 在 模型 中 ， 并 且 不 同 的 知识 状态 对 会 作答 题目 的 影响 应 
当 不 同 ， 以 实现 模型 对 不 同 知识 状态 被 试 的 识别 。 @ 模 型 要 可 识别 ,并 且 可 以 通过 常用 的 估 


计算 法 ,如 EM EÈ MCMC 算法 实现 模型 的 参数 估计 。 基 于 以 上 三 点 ,本 研究 提出 了 SDT-CDM, 


如 公式 (2) 所 示 。 


gPim*jX jm 


m) = Augg saam t 7 A) gi com (2) 

其 中 ，Q@1 表 示 知 识 状 态 为 第 1 种 类 别 (1 = 1,2,....29, KABLER. A jS RAS Na BO 
被 试 会 作答 题目 j 的 概率 ， 与 公式 (1) 不 同 ，SDT-CDM 的 优势 可 以 刻画 被 试 与 不 同 q 向 量 类 
型 的 题目 之 间 的 交互 作用 ,同时 放松 了 传统 SDT 模型 仅 能 反映 被 试 总 体 水 平 ( 即 国 ) 而 不 是 反 
映 被 试 与 具体 题目 之 间 的 交互 作用 信息 的 强 假 设 ， 使 模型 更 灵活 。 其 余 符号 同 公式 (1)。 泥 
合 参数 1 的 计算 如 下 所 示 : 


Pim (Dims dj, Xj, 


K; Ki—1 — K; K; 
J J J J 
» Xy. kG t Eper 2r a Oke! ke Cue! + jio ae yaa Ce 


Ay (3) 


K: Ki-1..K; K; 
J J J J 
2m Ójkqjk + pun k'=k41 Sj kA jkd jk! +: + Ój12...K2 IL. Qjk 


尽管 41j 的 分 子 部 分 构造 与 G-DINA 模型 (de la Torre，2011) 类 似 ， 但 参数 的 含义 完全 不 
同 。 首 先 ，X1j 的 计算 中 不 存在 截 距 项 ， 意 味 着 当 被 试 未 掌握 题目 考察 的 任何 属性 时 ， 其 值 
230, 即 表 示 不 会 作答 ,与 SDT 模型 理念 保持 一 致 。 此 时 , 虽然 6jx 也 可 被 看 作 题目 j 的 第 k 个 
遇 性 的 主 效应 ， 但 其 含义 为 : 被 试 掌握 了 题目 j 所 考察 的 第 k 个 属性 时 ， 对 于 “会 作答 ”该 题 
目的 概率 的 贡献 程度 , 而 非 对 正确 作答 概率 的 贡献 程度 , 这 是 SDT-CDM 与 G-DINA 的 本 质 
区 别 。6jxw 为 题目 的 二 阶 交 互 项 ，6jaz .8 为 最 高 阶 交互 项 ， 其 含义 与 主 效应 含义 类 似 。 克 广 为 
题目 j 考察 到 的 属性 个 数 。X1j; 的 分 母 表 示 题 目 j 考察 的 全 部 属性 的 效应 之 和 ， 分 子 表示 被 试 
掌握 了 其 中 的 部 分 或 全 部 属性 的 效应 之 和 ， 因 此 ， 被 试 掌握 所 考察 的 属性 越 多 ， 那 么 其 “会 
作答 ”的 概率 也 就 越 高 ， 不 同类 型 的 知识 状态 ， 对 于 相同 题目 会 作答 的 概率 是 不 同 的 ， 这 也 


Fy Oo 


是 SDT-CDM 优 于 SDT 模型 的 其 


不 难看 出 ， 若 被 试 未 掌握 题目 7 考察 的 任何 属性 时 ， 有 4oj = 0， 若 被 试 掌握 了 所 有 考察 


Rib, fAg-l. DU, ay == 神 ， 公 式 (3) 可 改写 为 


41 
Kj Kj-1 Kj Ki 
Ay = 25 Oj Qty + » bi Or OG Aig! + + Ój12..k | | Qik (4) 
k=1 k=1 k’=k+1 k=1 


SDT-CDM 的 模型 参数 估计 可 用 MMLE/EM 算法 实现 , 算法 推导 过 程 及 其 标准 误 计 算 请 
参见 网 络 版 附录 。 
4 模拟 研究 1 
4.1 研究 目的 


采用 蒙特 卡 洛 模拟 方式 探讨 SDT-CDM 在 不 同 实验 条 件 下 对 被 试 的 分 类 准确 性 和 参数 
估计 精度 。 
4.2 实验 设计 

本 研究 为 5 因素 完全 交叉 设计 , 5 个 自 变 量 分 别 为 属性 个 数 (K = 3, 5)、 题目 长 度 Y = 20, 
40)、 题 目 质量 (高 质量 ， 低 质量 )、 样 本 量 (N = 1000, 2000)、 属 性 分 布 (高 阶 分 布 ， 多 元 正 态 
分 布 )。 所 有 实验 条 件 均 重复 200 次 以 减少 随机 误差 。 
4.2.1 题目 的 模拟 

Q 矩阵 的 生成 方式 为 :在 保证 有 两 个 单位 矩阵 的 情况 下 ， 其 余 题目 的 q 向 量 从 所 有 可 能 
的 q 向 量 中 随机 抽取 ， 以 实现 被 试 知 识 状 态 的 可 识别 (Xu, 2017; Fang et al., 2019)5 Q 矩阵 的 
随机 模拟 。 题目 质量 由 于 没有 前 人 研究 作为 参照 , 因此 参考 之 前 认 知 诊断 相关 研究 中 的 范围 
进行 设置 ( 郭 厅 等 , 2016)， 具 体 为 : 高 质量 题目 参数 中 epgk 从 UV[ 一 2.5, 一 1] 随 机 抽取 且 ex 从 


U[2.5, 3.5] 中 随机 抽取 ， 由 于 当 epk = -2.5 H ex = 3.5 时 有 (1 一 PP) 和 Po = 0.05, “4epnx = -1 


H. ex 2 2.5 时 有 (1 一 Pi) 和 Po = 0.15, 此 时 与 认 知 诊断 中 (1 一 Pi) 和 Po。 从 U[0.05,0.15] 中 随机 
抽取 等 价 ; 低 质 量 题目 参数 中 epg 从 U[ 一 1 一 0.5] 随 机 抽取 且 ex 从 U[1.8, 2.5] 中 随机 抽取 ,由 
于 当 epk = -1 H ex = 2.5 (1 — PAP, = 0.15, %4 ep = -0.5 且 ek=1.8 时 有 (1 一 PP) 和 
取 等 价 。 为 了 最 大 程度 实现 模拟 数 
据 的 随机 性 与 结论 的 可 推广 性 ， 题 目的 合理 性 参数 bj 与 属性 效应 6s 均 不 做 严格 约束 。 由 于 
合理 性 参数 bm 仅 通过 相对 大 小 来 影响 选择 某 选 项 的 概率 (如 图 1 所 示 )， 因 此 可 从 标准 正 态 
分 布 中 随机 抽取 ， 以 实现 选项 之 间 合 理性 倾向 的 随机 大 小 关系 。 属 性 效应 6s 满足 “掌握 属 
性 越 多 的 被 试 其 “会 答 ”题目 的 概率 越 高 ”这 一 假设 即 可 。 此 外 ， 本 研究 固定 MC 题目 的 选 
项 数量 为 4 个， 与 现实 中 大 多 数 MC 题 型 的 选项 数量 一 致 。 
4.2.2 被 试 的 模拟 

被 斌 的 知识 状态 采取 高 阶 和 多 元 正 态 分 布 生成 。 其 中 ， 高 阶 分 布 参考 Ma 等 (2016) 的 设 
置 ， 具 体 如 下 : 


Po = 0.25， 此 时 与 (1 — P4)fIPS JA U[0.15,0.25] BG B4] 


TH 


_ exp[17 x (6; — ó,)] E 
ik 1-exp[17 x (0; — 6,)] (5) 


其 中 ，0; 为 被 试 的 能 力 大 小 ， 从 标准 正 态 分 布 中 抽取 。65 为 属性 k 被 掌握 的 难度 ， 从 -1 
到 1 之 间 按 照 属性 数量 等 距 选 取 , 如 3 属性 时 三 个 属性 的 难度 分 别 为 61 = —1,05 = 0,63 = 1. 


多 元 正 态 分 布 参考 Chiu(2013) 的 设置 ， 定 义 一 个 天 维 向 量 9; = (04,015 ..., Oix MEN BOK 
i 在 每 个 属性 上 的 连续 能 力 值 ，9; 从 多 元 正 态 分 布 MVN(0,2) 中 随机 抽取 ， 协 方差 矩阵 5 的 非 
对 角 线 元 素 用 于 描述 属性 间 的 相关 ， 设 置 为 0.5。 被 试 知识 状态 真 值 可 用 下 式 生成 : 


k 
1,if 0, TALL 
dip df On 9 G T rà (6) 
0, otherwise 


4.3 评价 指标 
参数 估计 精度 的 评价 指标 主要 采用 平均 偏差 Bias、 均 方 误差 根 (root mean squared error, 


RMSE)， 计 算 见 公式 (7) 和 公式 (8)。 


R A 
Bias = Bei (7) 
RMSE = | Esa (8) 
R 
其 中 ，w 表 示 参 数 “ 真 值 "， 人 6 表示 参数 估计 值 ，R 表 示 总 循环 次 数 ，r 表 示 当 前 循环 次 数 。 


Bias 越 接 近 于 零 表 明 参 数 估计 的 偏差 性 越 小 ，RMSE 越 小 说 明 参 数 估 计 的 准确 性 越 好 。 
被 试 属性 掌握 情况 的 估计 精度 评价 指标 采用 平均 属性 判 准 率 (average attribute correct 
classification rate, AACCR) 和 模式 判 准 率 (pattern correct classification rate, PCCR)， 计 算 公式 


如 下 : 


K 
AACCR = 于 Ace (9) 
R SN pm. 
PCCR = teh (10) 
R SN om, 
其 中 ，ACCR = ZE Mikr (11) 
RXN 


H, amier = LRA Pr RAGA PO BK i 的 第 下 个 属性 判断 正确 ，pmair = 1 表示 第 r 次 循 
环 中 被 试 i 的 知识 状态 判断 正确 。 
4.4 研究 结果 

图 2 和 图 3 呈现 了 不 同 自 变 量 水 平 下 SDT-CDM 的 参数 估计 Bias 和 RMSE 的 总 体 结果 。 
由 于 每 道 题目 的 合理 性 参数 、 属 性 主 效应 和 属性 交互 效应 的 参数 不 止 一 个 , 考虑 呈现 的 简洁 
性 和 篇 幅 ， 结 果 用 均值 表示 。 整 体 来 看 ， 各 参数 的 估计 精度 均 较 高 ， 如 : 合理 性 参数 Bias 


范围 为 -0.003 至 0.007， 均 值 为 0.002; RMSE 范围 为 0.119 至 0.261, 25/873 0.173。 区 分 度 


参数 Bias 范围 为 -0.054 至 -0.001, 均值 为 -0.022; RMSE 范围 为 0.145 至 0.385, 均值 为 0.253。 


易 度 参数 ek 的 Bias 范围 为 -0.014 至 0.075， 均 值 为 0.027; RMSE 范围 为 0.181 至 0.334, PJ 


值 为 0.260。 其 余 参 数 不 再 


不 同 自 变 量 对 参数 估计 精度 的 


影响 不 同 。 首 先 ， 属 性 分 布 为 高 阶 分 布 的 精度 要 稍 优 于 多 


元 正 态 分 布 的 精度 ， 如 高 阶 分 布下 的 b、d、epKgk、eKk、8-M 和 6-I 参数 的 Bias(RMSE) 均 值 分 


别 为 0.002(0.160)、-0.022(0.234)、0.046(0.245)、0.025(0.248)、0.001(0.078) 和 -0.001(0.154)， 


多 元 正 态 分 布下 的 对 应 参数 的 BiasRMSE) 均 值 分 别 为 0.002(0.187) 、-0.022(0.271) 、 


0.051(0.267)、0.029(0.271)、0.008(0.126) 和 -0.009(0.236)。 其 次 ， 属 性 个 数 越 多 ， 精 度 会 略 有 


下 降 ， 如 由 K=3 变 为 K-5 时 ， 尽 管 所 有 参数 的 Bias 均值 由 0.009 变 为 0.010， 但 RMSE 的 
均值 由 0.189 增 大 至 0.224， 增 幅 为 18.5%。 然 而 ， 题 目 数量 对 参数 估计 精度 的 影响 较 小 。 


当 J=20 增加 至 40 题 时 ， 所 有 参数 的 Bias 均值 由 0.008 变 为 0.010, RMSE 的 均值 由 0.203 


变 为 0.210， 相 差 无 几 。 


再 次 ， 题 目 


质量 对 精度 的 影响 较 大 ， 当 题目 质量 由 高 变 低 时 ， 所 有 


参数 的 Bias 均值 由 0.000 变 为 0.019, RMSE 的 均值 由 0.192 变 为 0.221， 增 幅 为 15.1%。 最 
后 ， 样 本 量 的 影响 最 大 ， 当 人 数 由 2000 降低 至 1000 时 ， 所 有 参数 的 Bias 均值 由 0.007 变 为 


0.010, RMSE 的 均值 由 0.179 变 为 0.234， 增 幅 高 达 30.796. 


确 的 对 被 试 进行 分 类 ， 其 


图 4 呈现 了 SDT-CDM 的 AACCR 和 PCCR 判 准 率 结果 。 整体 而 言 ， 新 模型 能 够 较为 准 


分 类 精度 同样 会 受 不 同 自 变量 的 影响 。 在 本 文 关 注 的 5 个 因素 中 ， 


对 分 类 精度 影响 最 大 的 是 题目 质量 。 当 题目 质量 较 低 时 ，AACCR 的 范围 为 0.902 至 0.988, 


均值 为 0.951，PCCR 的 范围 


73 0.609 至 0.964， 均 值 为 0.816; 当 题 目 质 量 提升 后 ，AACCR 


的 范围 为 0.973 至 1.000， 均 值 为 0.990，PCCR 的 范围 为 0.876 至 0.999， 均 值 为 0.957， 增 


均值 为 0.983，PCCR 的 范 


围 为 0.858 至 0.999, 均值 为 0.951; 当 K=5 时，AACCR 的 下 降幅 


幅 为 17.4%。 其 次 是 属性 个 数 对 精度 的 影响 ， 当 K=3 IN, AACCR 的 范围 为 0.950 至 1.000, 


度 为 2.5%， 而 PCCR 的 下 降幅 度 为 15.7%。 第 三 位 的 影响 因素 为 题目 数量 ， 题 量 越 多 ， 对 
被 试 获得 的 信息 就 越 多 , 因此 对 其 分 类 精度 也 会 提升 。 如 J=20 FF, 平均 的 AACCR 和 PCCR 


分 别 为 0.958 和 0.841， 当 


幅 分 别 为 2.7% 和 10.896. 


J=40 时 , 


平均 的 AACCR 和 PCCR 分 别提 升 至 0.984 和 0.932, Jü 


而 其 余 两 个 变量 : 属性 分 布 和 样本 量 对 分 类 精度 的 影响 不 大 。 如 


高 阶 分 布 时 的 平均 AACCR 和 PCCR 分 别 为 0.969 和 0.882, 多 元 正 态 分 布 时 的 平均 AACCR 


和 PCCR 分 别 为 0.972 和 0.891; ABCA 1000 人 时 的 平均 AACCR 和 PCCR 分 别 为 0.970 和 


0.883， 当 人 数 增长 至 2000 时 ， 平均 AACCR 和 PCCR 分 别 为 0.972 和 0.890， 相 差 无 几 。 


多 元 正 态 分 布 


高 阶 分 布 


高 


3-40-H-2000 


I xw 
= 23222? E 
i dE 
5-40-L-2000 = | 5-40-L-2000 
5-40-H-2000 4H 5-40-H-2000 5-40-L-1000 
5-40-H-1000 M soto kommen MN 
5-20-L-2000 m 520::3000 5-40-H-1000 
5-20-L-1000 发 5-20-L-1000 £ 5-20-L-2000 
5-20-H-2000 E SDE % 5-20-L-1000 
5-20-H-1000 Š Siid ie 5-20-H-2000 
3-40-L-2000 H 507 3000 内 5-20-H-1000 
3-40-L-1000 EN SAT 3-40-L-2000 
3-40-H-2000 4011000 
tr 


分 度 参 数 ，epk 为 被 试 不 会 作答 时 的 易 度 参数 ，ek 为 被 试 会 作答 时 


晶 性 的 主 效应 ，$-I 为 属性 的 交互 效应 。 横 坐标 “3-20-H-1000 表 


5-20-L-2000 


区 


5-20-L-1000 5-20-L-2000 


5-20-L-1000 


5-20-H-2000 c 5-20-L-1000 
-2 4 

5.20-H-1000 — FZ E 3208200 Z Ê 5-20-H-2000 
x k < d 


3-40-L-1000 


3-40-H-2000 3-40-L-1000 
3-40-H-1000 SAU E2000 €— 3-10-H-2000 
3-20-L-2000 340-1000 l—— 3-40-H-1000 
3-20-L-1000 3-20-1-2000 3-20-L-2000 
3-20-H-2000 国 2-20-L-1000 3-20-L-1000 


b 为 所 有 合理 性 参数 的 均值 ，d 为 


的 易 度 参 数 ，5-M 为 | 


3-20-H-1000 3-20-H-2000 3-20-H-2000 
3-20-H-1000 
Sgs$zussgissie i 
Se SS 282228923282 sssssssssss 
te CUN AY sescooscoooscoscs SRRFSRTAABS 
A =e c c ec ce e ec oe 
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图 4SDT-CDM 的 PCCR 和 AACCR 判 准 率 结果 


5 模拟 研究 2 
5.1 研究 目的 


采用 蒙特 卡 洛 模拟 方式 主要 比较 SDT-CDM 和 NRDM 在 不 同 实验 条 件 下 的 被 试 分 类 准 


确 性 。NRDM 模型 如 下 所 示 : 


exp [roim + Yim; hla, qp| 
Pas m rage?) = er es a (12) 


dimjem; exp [vom + Vim h(a,, a;)| 


其 中 ， Yim; h(a, qj) = Y Yijkm; (arkaj) + Ekai Diky SPCT CCI) p 


yojm 为 题目 截 距 项 ，)Jajxm EARL, yo sicca 为 题目 的 二 阶 交互 ， 以 此 类 推 。 关 


于 NRDM 的 详细 内 容 可 参见 Templin 等 (2008) 文 章 。 对 比 公 式 (2) 和 (12) 不 难看 出 ， 两 个 模型 
的 题目 参数 含义 不 同 且 不 能 相互 转化 ， 如 SDT-CDM 为 题目 合理 性 参数 bj 等 ，NRDM 为 题 
目 主 效应 及 各 阶 交互 效应 。 此 外 ， 两 个 模型 的 参数 范围 也 不 同 ，SDT-CDM 的 模型 参数 范围 
可 以 大 于 1， 而 NRDM 的 模型 参数 范围 均 在 0-1 之 间 ， 这 也 使 得 两 个 模型 的 参数 估计 精度 
无 法 公平 比较 。 因 此 ， 主 要 考察 被 试 分 类 准确 性 的 差异 。 
5.2 实验 设计 

本 研究 的 自 变 量 设置 同 研 究 1。 为 了 比较 不 同 模型 的 表现 差异 ， 分 
NRDM 作为 真 模型 生成 数据 ， 再 用 两 个 模型 分 别 去 拟 合 这 些 数据 。 其 中 ，NRDM 的 题目 质 
量 设置 如 下 : 高 质量 题目 参数 1 一 P(1) 和 P(0) 从 均匀 分 布 U[0.05,0.15] 中 随机 抽取 ; 低 质 量 
题目 参数 1 — P(1) 和 P(0) 从 均匀 分 布 U[0.15, 0.25] 中 随机 抽取 。P(1) 和 P(0) 分 别 表示 全 部 掌 
握 和 完全 没 掌握 两 种 知识 状态 下 的 正确 作答 概率 。 其 余 设 置 同 研究 1。 
5.3 研究 结果 

网 络 版 附录 图 Al 和 网 络 版 附录 图 A2 直观 地 呈现 了 两 个 模型 分 别 为 真 模型 时 在 不 同 自 
变量 水 平 下 的 PCCR 和 AACCR 结果 ,不 论 真 模型 是 哪个 ,SDT-CDM 的 表现 均 要 优 于 NRDM。 
当 SDT-CDM 为 真 模 型 时 , 属性 分 布 对 两 个 模型 的 分 类 精度 影响 均 较 小 , 样本 量 仅 对 NRDM 
有 中 等 程度 影响 (样本 量 增 大 ,N-PCCR 的 均值 提高 了 7.6%)。 属 性 个 数 由 3 个 增加 至 5 个 时 ， 
S-PCCR 和 N-PCCR 的 均值 分 别 下 降 了 12.9% 和 10.3% ; 题目 质量 降低 时 ,S-PCCR 和 N-PCCR 
的 均值 分 别 下 降 了 14.3% 和 29.4%。 值 得 注意 的 是 ， 题 目 数量 对 两 个 模型 的 影响 趋势 存在 不 
同 ， 题 目 数 量 增 大 时 ，S-PCCR 的 均值 提高 了 9.2%， 但 N-PCCR 的 均值 反而 下 降 了 18.2%。 
一 个 可 能 的 原因 是 : 题目 数量 越 多 ，NRDM 的 题目 参数 数量 将 大 幅度 增长 (由 公式 (12) 可 以 
看 出 )， 因 此 需要 更 多 的 样本 量 才 能 保证 题目 参数 的 估计 精度 ， 而 当 样 本 量 不 足 时 ， 题 目 参 
数 的 估计 精度 会 降低 , 从 而 进一步 降低 了 被 试 的 分 类 精度 。 该 影响 也 可 以 从 最 初 提出 NRDM 
的 研究 中 得 到 佐证 (Templin et al, 2008)， 作 者 即使 采用 了 缩减 的 补偿 NRDM 模型 而 非 饱和 
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别 采 用 SDT-CDM 和 


的 NRDM 模型 也 需要 高 达 5000 人 才能 得 到 理想 的 参数 估计 精度 。 相 对 而 言 ，SDT-CDM 就 
表现 的 和 大 部 分 研究 结果 相近 ， 即 题目 数量 越 多 , 分 类 精度 越 高 ， 这 点 也 可 以 说 明 新 模型 对 
于 处 理 诊断 测验 中 的 称 名 数据 更 为 理想 。 同时， 这 6 也 解释 了 为 何 NRDM 作为 真 模 型 的 表现 
仍 不 如 SDT-CDM。 当 NRDM 为 真 模型 时 ， 尽 管 自 变量 对 分 类 精度 的 影响 趋势 与 真 模型 为 


SDT-CDM 时 类 似 ， 但 此 时 SDT-CDM 与 NRDM 的 表现 差异 要 更 小 ， 如 题目 质量 降低 时 ， 


S-PCCR 和 N-PCCR 的 均值 分 别 下 降 了 6.2% 和 14.8%， 这 说 明 SDT-CDM 比 起 NRDM 具有 
更 强 的 稳定 性 。 
网 络 版 附录 表 Al 进一步 呈现 了 不 同 自 变量 对 两 个 模型 差异 的 影响 ,不 论 真 模型 是 哪个 ， 
题目 数量 对 于 两 者 的 影响 均 是 最 大 的 ， 当 7 = 20 时 ， 两 者 表现 相差 无 几 ; 但 当 J = 40 时， 
SDT-CDM 比 NRDM 的 PCCR 均值 在 不 同 真 模型 条 件 下 分 别 高 出 了 42.29% 和 21.0496, 说 明 
NRDM 不 太 适 合 分 析 题 目 数量 较 多 的 测验 , 若 要 分 析 则 需要 增加 较 多 样本 量 , 而 SDT-CDM 
在 一 定 的 样本 量 基 础 上 就 可 以 分 析 较 多 题 量 的 测验 情景 。 影响 其 次 的 是 题目 质量 , 尤其 当 题 
目 质量 较 低 时 ，SDT-CDM IK NRDM 的 PCCR 均值 在 不 同 真 模型 条 件 下 分 别 高 出 了 36.0696 
和 16.5296, WIH SDT-CDM 可 以 有 效 缓冲 题目 质量 较 低 产生 的 负面 影响 。 接 下 来 是 样本 量 ， 
当 样 本 量 较 小 时 , SDT-CDM 比 NRDM 的 PCCR 均值 在 不 同 真 模型 条 件 下 分 别 高 出 了 24.7296 
和 14.93%， 说 明 SDT-CDM 比 起 NRDM 来 说 更 适合 处 理 小 样本 。 而 其 余 变 量 均 有 不 同 程度 
的 影响 ， 不 再 更 述 。 
通过 上 述 结果 综合 来 看 ，SDT-CDM 从 各 方面 都 要 优 于 NRDM, 通过 详尽 的 模型 比较 研 
究 ， 进 一 步 证 明了 新 模型 的 优势 : 当 实验 条 件 变化 时 ，SDT-CDM H5 NRDM 更 能 维持 住 相 
对 好 的 模型 表现 ， 因 此 可 以 认为 SDT-CDM Et NRDM 的 适用 场景 更 广 ， 表 现 更 稳定 。 
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6 即使 是 缩减 的 补偿 NRDM 模型 也 需要 高 达 5000 人 才能 得 到 理想 的 参数 估计 精度 。 
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6 实证 研究 

实证 数据 取 自 Ma 和 de la Torre(2020) 使 用 过 的 TIMSS 2011 数据 ， 该 数据 共 包含 23 道 
数学 测验 题目 ， 本 研究 选择 其 中 的 14 道 选 择 题 进行 分 析 。 数 据 中 包含 748 名 来 自 美国 被 试 
的 作答 数据 ， 数 据 中 的 缺失 值 采 用 随机 的 错误 答案 进行 其 换 。Q 矩阵 属性 个 数 为 6 个 ,分 别 
为 : A1) 整 数 ，A2) 分 数 、 小 数 和 比例 ; A3) 表 达 式 、 方 程式 和 函数 ，A4) 线 条 、 角 度 和 形状 ; 
A5) 位 置 和 移动 ，A6) 数 据 组 织 、 表 示 和 解释 识别 明确 信息 ， 如 表 1 所 示 。 诊 断 结果 的 信 效 


度 指标 采用 Wang 等 (2015) 提 出 的 属性 与 模式 分 类 一 致 性 指标 (Attribute-Level and 


Pattern-Level Classification Consistency)， 以 及 属性 与 模式 分 类 准确 性 (Attribute-Level and 


Pattern-Level Classification Accuracy)， 它 们 可 以 分 别 从 属性 层面 与 模式 层面 综合 判断 诊断 结 
果 的 信 效 度 , 均 是 取 值 越 高 则 表明 信 效 度 越 好 。 为 了 展现 SDT-CDM 的 实际 表现 ， 在 分 析 实 
证 数据 时 加 入 了 NRDM? 进 行 对 比 。 

表 1 TIMSS 2011 数学 测验 (选择 题 ) 的 Q 矩阵 


序号 /题目 编号 Al A2 A3 A4 A5 A6 


1/M032679 0 0 0 1 1 0 
2/M042024 0 1 0 0 0 0 
3/M042016 1 0 0 0 0 0 
4/M042077 1 0 1 0 0 0 
5/M042235 0 0 1 0 0 0 
6/M042150 0 0 0 1 0 0 
7/M032352 1 0 0 0 0 1 
8/M032738 0 0 1 0 0 0 
9/M032295 0 0 1 0 0 0 
10/M032331 0 0 0 1 1 0 
11/M042041 0 1 0 0 0 0 
12/M032047 1 0 0 0 0 0 
13/M032398 0 0 0 1 0 0 
14/M032424 0 1 1 0 0 0 


7 使 用 R 软件 中 的 GDINA 程序 包 进 行 参数 估计 。 
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3&2 SSL Y SDT-CDM 5 NRDM 的 模型 -数据 的 相对 拟 合 指标 : 负 2 倍 对 数 似 然 值 (-2 Log 


likelihood), AIC(Akaike information criterion) 与 BIC(Bayesian information criterion)， 三 者 均 
是 取 什 越 小 越 好 。 结果 表明 ,SDT-CDM 在 3 个 拟 合 指标 上 的 结果 都 要 优 于 NRDM， 如 粗 体 
结果 所 示 ， 并 且 模型 自由 估计 的 参数 数量 为 71 个， 而 NRDM 需要 估计 87 个 参数 ， 更 加 复 
杂 。 
表 2 模型 数据 相对 拟 合 指标 
Model 模型 参数 数量 -2LL AIC BIC 
SDT-CDM 71 19965.49 20107.49 20169.54 
NRDM 87 20007.68 20181.68 20257.71 
网 络 版 附录 表 A2 和 网 络 版 附录 表 A3 分 别 显现 了 SDT-CDM 和 NRDM 的 模型 参数 估计 


结果 。 由 网 络 版 附录 表 A2 可 以 看 出 ，14 道 题 目的 


区 分 度 d 均 为 正 值 ， 这 表明 “会 答 ” 题 目 


的 被 试 和 “不 会 答 ” 题 目的 被 试 能 够 被 正常 区 分 。 理 论 上 ，4d 越 大 则 表明 题目 质量 越 好 ， 但 
根据 DeCarlo (2021) 实 证 数据 参数 估计 结果 的 经 验 ， 当 d 过 大 时 可 能 导致 标准 误 的 增 大 ， 例 


如 DeCarlo 研究 ! 


d 在 6 以 上 的 3 道 题 ,其 4 值 的 标 ? 


EVITE 8 以 上 ,表明 参数 估计 不 稳定 。 


HU d 值 大 于 6, 


第 7 


相 比 之 下 ， 本 研究 仅 有 
结果 较为 理想 。 

论 上 ,质量 良好 的 题 
的 最 大 值 可 以 是 任意 的 
也 能 以 较 高 的 概率 选 


理 


正确 选项 ( 即 猜测 概率 高 ) 。 


ERY 


目的 epk 参 数 应 该 为 负 值 
TRI, 但 不 应 该 是 正确 选项 , 否则 表示 即使 不 会 作答 该 题目 的 被 试 


住 误 为 4.044 远 小 于 8， 整 体 来 说 ， 估 计 


` 


越 小 越 好 , 对 应 到 合理 


HES Tb, ES 中 


该 测验 中 有 9 道 题 目 的 epk 人 参数 为 负 值 ， 


日 


H | 


说 明 不 会 作答 这 些 
生 的 概率 较 小 。 但 
的 被 试 感觉 到 更 合 型 


目的 被 试 感知 到 干扰 项 的 合 型 
余 的 5 道 题目 的 epk 均 为 正 值 


题 


- ba 


b ga Dg 


ejm e? 
Sm, Pim 91.3694. 61.39 


比较 高 的 概率 选择 正确 答案 


题 存 在 容易 被 猜 对 的 问题 ， 
有 掌握 第 11 E UE 
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这 与 NRDM 分 析 得 到 的 结 


的 被 试 选 择 正 确 选 项 的 概率 较 大 , BY PO) = 0.498), 并 日 


= 


生 比 正确 选项 的 合理 性 更 大 , 猜测 行为 发 


， 说 明正 确 选项 比 干扰 项 使 得 “不 会 答 ” 


E 确 


EE， 有 较 高 的 概率 会 发 生 猜 测 行为 。 以 第 11 题 为 例 ，epxk = 


Api 2.227 — 1.391 = 0.836， 这 说 明 对 于 “不 会 答 ” 的 被 试 而 言 ， 能 以 


227 


二 0.509)， 因 此 可 以 认为 第 11 


1+e2.227+e0 


5 果 ( 详 细 见 表 5 所 示 ) 非 常 接近 (对 于 没 


NRDM 


对 于 其 他 题目 猜测 概率 


的 估计 与 SDT-CDM 模型 也 是 高 度 一 致 的 , 这 说 明 通 过 SDT-CDM 的 


epx 参 数 来 判断 题 上 


类 似 地 , 质量 良好 的 题目 


的 猜测 行为 是 否 过 大 是 可 行 


dX, Bb, + dX, F RKE s BEE IER 


ba 


的 概率 选择 正确 选项 ( 


0.765+0.410 


rion enk + d = 0.836 + 3.454 = 4.290， 表 明 该 题目 对 于 “会 答 ” 的 被 试 能 够 以 很 


准确 的 。 


ePjm* d X jm g2227*4290 


yM ebjhtdjXjh "^ el369+e13911e2.227+4.290 Le0 


第 12 题 的 ek 最 小 仅 为 0.41, 对 于 “会 答 ” 的 被 试 来 说 , 他 们 选择 正确 选项 的 概率 仅 为 0.358( = 


的 eg 应 该 为 正 且 越 大 越 好 ,对 应 到 漂移 过 后 的 合理 性 参数 bi + 


选项 。 再 次 以 第 11 题 为 例 ，exk = (b emen +d) 一 
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= 0.987)， 符 合 逻 辑 。 然 而 ， 


5 vy MP (n Be Ste HH EAT i TU 
ooraoreooas6)， 表明 该 题目 存在 较 高 的 失误 概率 ， 需 要 对 题目 进行 调整 和 完善 。 


其 余 题 目 可 以 按照 相同 的 方式 进行 分 析 后 ， 用 了 
分 析 所 示 ，SDT-CDM 可 以 指导 测验 编制 者 针对 性 地 提高 题目 质量 以 及 选 
道 题 存在 着 猜测 概率 较 大 的 问题 ,因此 测验 


正如 上 述 结果 


判断 题目 /选项 质量 。 


SE 
ES 
E: 
m 
E 


需要 编制 更 有 诱导 性 /级 引力 的 干扰 项 。 通过 ek 的 分 析 可 知 ， 所 有 的 11 道 题 均 不 存在 


逻辑 异常 的 问题 。 但 即使 如 此 , 测验 编制 者 仍然 可 以 根据 SDT-CDM 的 分 析 结 果 针 对 性 地 对 


部 分 题目 进行 修改 调整 。 倪 


理性 差异 ( 即 q)。 


网 络 版 附录 表 A4 是 SDT-CDM 的 属性 


| 如 举例 的 第 12 题 ， 还 有 第 6 和 13 题 的 ex 均 小 于 1， 并 且 这 
题 的 区 分 度 d 也 是 14 道 题 中 较 低 的 ， 分 别 为 0.971, 0.884 和 1.123。 因 此 ， 若 想 进 一 步 


题目 质量 ， 可 以 尝试 调整 这 两 道 题目 的 正确 选项 ， 增 加 “会 答 ” 与 “不 会 答 ” 时 感知 到 的 


道 


提高 
a 
FT 


E 主 效应 和 交互 效应 参数 的 估计 结果 。 以 第 1 题 为 


fil, ó, = 0.999 表 明 若 被 试 仅 掌 握 了 题目 1 考察 的 第 一 个 属性 ， 其 “会 答 ” 该 题目 的 概率 ( 即 
ANA 99.9%， 同 理 ， 若 被 试 仅 掌握 了 考察 的 第 二 个 属性 ,其 “会 答 ” 该 题目 的 概率 为 66.5%。 


而 同时 掌握 了 两 个 属 怡 


33.5% 。 


表 3 呈现 了 属性 与 模式 的 分 类 准 古 


的 被 试 ， 其 “会 答 ”该 题目 的 概率 相对 于 前 两 者 分 别提 高 了 0.1% 与 


外 性 和 分 类 一 致 性 指标 (Wang et al., 2015) 结 果 。 在 分 类 
准确 性 上 , SDT-CDM É Al 属性 低 于 NRDM 之 外 ,其 余 属 性 的 分 类 准确 性 和 模式 分 类 准确 


性 均 要 高 于 NRDM， 尤 其 是 模式 分 类 准确 性 提升 了 39.13%, A6 的 属性 分 类 准确 性 提升 了 


23.77%; 在 分 类 一 致 性 上 ，SDT-CDM KR Al 属性 低 于 NRDM 之 外 , 模式 和 其 余 属性 的 分 类 

一 致 性 均 要 高 于 NRDM， 尤 其 是 A6 的 属性 分 类 一 致 性 提升 了 28.63%。 由 表 2 的 Q 矩阵 可 

知 ，A6 仅 被 考察 了 1 次 ， 相 对 其 他 属性 被 考察 的 次 数 偏 少 ， 此 时 对 NRDM 的 影响 更 大 ,而 
15 


SDT-CDM 能 够 在 有 限 考察 次 数 内 保持 较 高 的 分 类 准确 性 和 一 致 性 ， 更 加 稳健 。 以 上 结果 表 
明 新 模型 可 以 得 到 比 旧 模型 更 佳 的 信 效 度 结果 。 


表 3 属性 与 模式 水 平 的 分 类 准确 性 和 一 致 性 


评价 指标 模型 模式 


Al A2 A3 A4 A5 A6 


MC-SDT 0.608 0.864 0.918 0.932 0.884 0.819 0.953 


分 类 准确 性  NRDM 0.437 0.895 0.907 0.930 0.875 0.780 0.770 


提升 率 — 39.1390 -3.46% 1.21% 0.22% 1.03% 5.00% 23.7796 


MC-SDT 0.650 0.800 0.880 0.901 0.833 0.757 0.921 


分 类 一 致 性 NNDM 0.647 0.850 0.866 0.805 0.823 0.720 0.716 
提升 率 046% -4.82% 1.62% 0.67% 1.22% 5.1496 28.63% 

ik: 提升 率 = (SDT-CDM - NRDM)/ NRDM 

由 于 SDT-CDM 能 够 报告 传统 CDM 不 能 报告 的 难度 和 区 分 度 参数 , 为 了 检查 新 模型 所 

提供 的 难度 与 区 分 度 参 数 的 合理 性 ， 文 章 报告 了 其 与 两 参数 (2PL) 和 三 参数 (3PL) 项 目 反 应 模 

型 8 的 相关 系数 。 由 于 SDT-CDM 估计 的 是 易 度 ,在 参数 含义 上 与 2PL 和 3PL 中 的 难度 ( 记 作 


DHR, ARERR Ril. BRA: r(-epx, fae) = 0.63", r(-epx, PB3p1) = 0.71”, r(-ex, Bop) 


= 0.89", r(-ex, flspr) = 0.79. HLH Cohen(1988; P82) 提 出 的 标准 ， 相 关系 数 r > 0.5 即 为 大 
效应 量 ， 此 外 根据 张 厚 案 和 人 徐 建 平 (2015;，P150) 提 出 ， 相 关系 数 在 0.6 至 0.8 之 间 即 为 强 相 
关 ，0.8 以 上 即 为 非常 强 相关 ， 并 且 以 上 4 个 相关 系数 均 显 著 ， 因 此 表明 新 模型 与 IRT 模型 
一 样 ， 都 可 以 对 题目 进行 难度 表征 ， 以 此 来 反映 题目 的 难度 水 平 。 由 于 NRDM 无 法 表达 难 


度 参 数 ， 在 R 软件 的 GDINA 程序 包 中 可 以 提供 广义 区 分 度 指标 (global discrimination index, 


GDI; Xu et al., 2003), 因此 仅 报 告 NRDM 与 其 他 模型 的 区 分 度 的 相关 结果 :r(d, azp) = 0.66%, 


r(d, aser) = 0.79", r(GDI, azpr) = 0.20", r(GDI, asp) = 0.15”*， 以 上 结果 表明 新 模型 估计 得 
到 的 区 分 度 参 数 d 与 IRT 模型 的 估计 结果 为 强 相关 ， 且 均 显 著 ， 但 NRDM 的 区 分 度 参 数 与 
IRT 模型 的 结果 相关 较 低 且 均 不 显著 。 

SDT-CDM 从 可 能 的 64 种 知识 状态 中 识别 出 748 名 被 试 各 自 所 属 的 知识 状态 。 图 5 
呈现 了 被 试 数量 最 多 的 前 10 类 知识 状态 ， 总 占 比 为 79.3%。 进 一 步 计算 SDT-CDM 和 
NRDM 估计 得 到 的 属性 掌握 程度 与 总 分 间 的 相关 ( 郭 舌 等 , 2021)， 相 关 高 表明 总 分 越 高 


š 使 用 R 软件 的 MIRT 程序 包 进 行 参数 估计 。 
16 


的 被 试 其 掌握 属性 的 程度 越 好 ， 符 合 现实 情况 。 其 中 ，SDT-CDM 为 0.87", NRDM 为 


0.76”， 表 明 新 模型 的 表现 要 优 于 NRDM. 


111111  —I——————— A 
000010 es | ().60% 

111101 -— 9 (0% 

000011 —- 7 8096 

001101 — 7 10% 

001001 — 5 90% 

001000 — 4 1095 

000000 -— 4.00% 

011101 -—- 3.70% 

101011 am 2.90% 


0.00% 5.00% 10.00% 15.00% 20.00% 25.00% 30.00% 
图 5 各 类 知识 状态 的 被 试 占 总 体 的 比例 (前 十 类 ) 
6 讨论 与 研究 结论 
6.1 讨论 与 展望 
MC 作答 过 程 可 以 看 作 是 信号 检测 的 过 程 , 意味 着 被 试 对 每 个 选项 都 有 一 个 合理 性 感知 ， 
并 且 总 会 选择 感知 到 合理 性 最 强 的 选项 。 本 研究 将 SDT 模型 整合 进 CDM 中 ， 得 到 一 些 主 
要 发 现 : 首先 ，SDT-CDM 无 需 对 MC 题目 的 选项 进行 编码 ， 而 是 为 每 个 选项 赋予 了 一 个 合 
理性 参数 , 用 来 刻画 选项 之 间 的 差异 , 并 且 通 过 这 些 合理 性 参数 的 组 合 可 以 计算 得 到 传统 诊 
断 模型 无 法 提供 的 难度 和 区 分 度 参 数 , 这 些 信息 可 用 于 题目 质量 诊断 及 修订 。 通 过 研究 表明 ， 
SDT-CDM 的 这 些 优势 都 是 存在 的 ， 其 模型 构建 是 成 功 的 。 其 次 ， 通 过 两 个 模拟 研究 ， 在 5 
因素 上 全 面 地 检验 了 新 模型 的 性 能 ， 结 果 发 现 : (1) 题 目 质 量 和 样本 量 对 SDT-CDM 的 参 
数 估计 精度 影响 较 大 ， 而 属性 分 布 、 属 性 个 数 和 题目 数量 的 影响 较 小 。(@) 题 目 质量 、 属 性 
个 数 和 题目 数量 对 被 试 判 准 率 的 影响 较 大 ， 而 属性 分 布 和 样本 量 对 判 准 率 的 影响 不 大 。(3) 
通过 模型 比较 研究 后 发 现 ， 不 论 真 模型 是 哪个 ，SDT-CDM 的 被 试 判 准 率 均 要 优 于 NRDM, 
导致 该 现象 的 原因 是 由 于 NRDM 需要 很 大 样本 量 才 能 估计 准确 导致 ， 这 也 恰恰 证 明了 
SDT-CDM 的 现实 适用 性 和 稳健 性 。 最 后 ， 通 过 TIMSS 2011 的 实证 数据 分 析 发 现 ， 不 论 是 
模型 数据 拟 合 ， 分 类 精确 性 和 一 致 性 ， 还 是 与 IRT 的 难度 和 区 分 度 的 相关 ,， 均 是 SDT-CDM 
表现 更 优 。 此 外 ， 由 表 4 所 得 结果 可 用 于 判断 题目 /选项 的 质量 和 合理 性 ， 为 完善 和 提升 题 
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> 


以 下 几 点 。 
6.1.1 干扰 项 信息 的 利用 


目 质量 提供 的 针对 性 指标 ， 这 也 是 NRDM 所 不 能 实现 的 功能 。 本 研究 值得 探讨 的 问 


HORA 


目前 国内 外 对 于 MC 题 型 的 认 知 诊断 研究 大 部 分 都 对 干扰 项 进行 了 编码 (de la Torre, 


2009; DiBello et al., 2015; 郭 硕 等 , 2021; Ozaki, 2015; Wang et al., 2023)， 这 样 可 以 充分 利用 
干扰 项 所 提供 的 诊断 信息 ( 即 q 向 量 信息 )， 将 题目 的 诊断 优势 最 大 化 。 但 ] 
选项 层面 进行 编码 ,， 增 大 了 题目 编制 的 难度 ， 此 外 若 选 项 之 间 的 q 向 量 编码 差异 不 大 ， 亦 或 
某 些 选项 无 法 编码 ,其 提供 的 额外 诊断 信息 就 变 得 有 限 。 尽 管 SDT-CDM 无 需 对 干扰 项 进行 


编码 , 但 新 模型 已 将 传统 的 0-1 计 分 形式 变 为 称 名 数据 处 理 , 而 且 提 供 了 选项 层面 的 参数 ( 即 


是 该 做 法 要 求 对 


合理 性 参数 bj) 进 行 刻画 ， 本 质 上 这 已 经 属于 对 选项 层面 信息 的 处 理 ， 并 且 通 过 模拟 和 实证 
研究 表明 ， 新 模型 的 诊断 分 类 准确 性 和 一 致 性 ， 以 及 模型 拟 合 等 结果 均 要 优 于 NRDM。 本 


文 可 视 作 将 SDT 初次 引进 CDA 领域 的 研究 ,未 来 可 对 SDT-CDM 进行 拓 


项 信息 融入 的 新 方法 。 一 种 潜在 可 行 的 思 


路 是 将 混合 参数 1j; 细 化 至 选项 层面 ， 进 一 步 刻 画 


E. 探索 能 将 干扰 


不 同 知识 状态 的 被 试 与 不 同 选项 q 向 量 之 间 的 交互 作用 ， 以 此 综合 反映 被 试 “ 会 作答 ”的 可 


能 性 。 


6.1.2 EM 算法 的 改进 及 标准 误 的 计算 


本 研究 推导 了 SDT-CDM 的 EM 算法 , 但 EM 算法 存在 多 样 的 变 式 (Chalmers, 2012), 例 


如 标准 的 EM 算法 (the standard EM algorithm with fixed quadrature), 22% 1 


Ei EM 估计 (Monte 


Carlo EM estimation)、 随 机 EM 算法 (the stochastic EM), MH-RM 算法 (Metropolis-Hastings 


Robbins-Monro algorithm)、 最 小 化 卡 方 的 EM( 朱 玮 ，2006) 等 ， 这 些 算法 大 部 分 已 应 ) 


]T IRT 


研究 领域 ， 且 可 以 通过 mirt 软件 包 实现 。 然 而 ， 目 前 在 CDM 中 的 EM 算法 比较 单一 ， 从 


de la Torre(2009) Hi DINA 模型 的 边际 极 大 似 然 的 EM 算法 (MMLE/EM) 后 ，MMLE/EM fii 


一 直 是 主要 的 估计 算法 , 包括 本 文 也 是 使 月 


这 一 框架 拓展 ,。 尽管 MMLE/EM 算法 简单 高 效 ， 


但 探索 精度 更 高 、 收 敛 更 快 、 或 具有 其 他 独特 优势 的 新 算法 很 有 必要 。 未 来 可 以 考虑 将 IRT 


里 较为 成 熟 的 算法 引入 新 模型 中 。 


此 外 ，CDM 中 参数 估计 的 标准 误 采 


j 信 息 矩 阵 的 逆 求 解 ， 但 目前 已 有 


多 种 信息 入 


HEU 


PERK, 2022), 例如 经 验 交 叉 相 乘 信息 矩阵 法 (Empirical Cross-product Information Matrix, XPD), 


观察 信息 矩阵 法 (Observed Information Matrix，Obs) 和 三 明治 信息 久 
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E PE ZZ (Sandwich-type 


Information Matrix，Sw) 等 。 本 文 使 
SDT-CDM 参数 标准 误 估计 的 影响 。 
6.1.3 与 过 程 性 数据 相 结合 

随 着 计算 
掘 这 些 过 程 性 数据 所 提供 


BAX, 2022)， 以 及 和 动作 序列 结 


结合 


的 是 XPD 矩阵， 未 来 可 探索 使 | 


JA I] fei I 


A 


的 诊断 ( 郑 天 鹏 等 ,2023)， 和 了 眼 动 数 据 结合 


ac» 


机 技术 的 发 展 , 记录 被 试 的 作答 过 程 性 数据 变 得 方便 快捷 , 许多 研究 者 开始 挖 
的 信息 是 如 何 帮 助 提升 被 试 知识 状态 的 诊断 精度 , 以 及 反映 出 不 同 
的 作答 风格 或 策略 。 如 ， 和 反应 时 数据 


的 诊 


合 的 诊断 (Zhan & Qiao, 2022)。 这 些 研究 均 将 过 程 性 数 


据 融入 CDM 中 , 并 证 明了 融入 辅助 信 


AA 


尽管 挖掘 


过 程 性 数据 
识 (He, et al., 2021)， 同 时 ， 
数 数据 的 模型 包括 泊 松 模型 


模型 (zero-inflated model)、 跨栏 模型 (H 


Z4 
A 


Hi 


EF e ES Oph 


性 和 有 效 性 ,为 多 模 态 数 
究 者 接受 , 但 尚未 就 如 何 能 更 好 地 分 析 它 们 达成 共 
j 于 分 析 过 程 性 数据 本 身 的 模型 或 方法 也 具有 多 村 


分 析 提 供 了 方法 。 


性 ， 如 处 


里 计 


(poisson modeD)、 负 二 项 式 模型 negative binomial model), IHK 


urdle model) 等 。 再 如 , 动作 序列 的 提取 方法 也 有 很 多 ， 


如 潜在 空间 模型 (latent space model, Chen et aL, 2022)， 基 于 递归 神经 网 的 序列 到 序列 自动 编 


码 器 (recurrent neural network-based sequence-to-sequence autoencoders, Tang et al., 2021), 及 多 


类 的 效果 。 未 来 可 以 探讨 不 同 的 过 程 


维 尺度 法 (multidimensional scaling, Tang et al., 2020) 等 , fs [ri] E fi 


实际 效果 。 
6.1.4 与 追踪 诊断 相 结合 
纵向 追踪 诊断 


补救 教学 ， 最 终 促 ; 


al., 2018; Zhang & Chang, 2020)4113 J 
al, 2019)， 未 来 可 以 考虑 将 SDT 模型 融入 纵 


还 能 随时 间 点 观察 题 
本 研究 尚 存 


质量 的 改变 。 


Ep Ab, Bil MAST 


提取 方法 也 会 影 
性 数据 模型 和 不 同 的 特征 提取 方法 与 SDT-CDM 


响 诊 


结合 


EEIT 
的 


究 也 是 CDA 领域 近年 来 的 一 个 研究 热点 ， 通 过 对 学 习 过 程 的 追踪 ， 不 
步 刻 画 学 生 的 学 习 轨 迹 ， 更 能 有 效 发 挥 CDA 的 诊断 功能 ， 帮 助教 师 等 实施 针对 性 
学 生发 展 。 目 前 纵向 CDM 包括 基于 潜在 转移 分 析 的 纵向 CDM(Wang et 


高 阶 潜在 结构 的 纵向 CDM 两 大 类 (Lee, 2017; Zhan et 


由 于 能 够 处 理 选项 层面 数据 且 不 需要 选项 


究 只 将 SDT-CDM 5 NRDM 进行 比较 ， 虽 然 这 是 


向 CDM 中 ， 不 仅 实 现 对 被 试 知识 状态 的 追踪 ， 


=] 
ZN 


I 
TAN 


标 导 致 难以 对 SDT-CDM 模型 进行 更 深 


步 的 探索 研究 。 本 文 使 ) 


信息 矩阵 ,而 解析 法 信息 矩阵 在 计算 CDM 模型 参数 的 标准 误 时 可 


编码 的 CDM 较 少 导致 , 但 正 是 缺乏 更 多 的 对 
的 XPD 信息 和 矩阵 属 


能 会 遇 到 矩阵 非 


正定 、 以 及 方差 协 方差 矩阵 对 角 线 元 素 可 能 小 于 0 等 问题 ， 导 致 无 法 求解 出 标准 误 。 因 此 计 


19 


TUE VR ET ER UE (2022) FE A “SEAT AB” AURAT SERERE VESPA RI 
方式 进行 计算 ， 可 以 不 受 解析 法 信息 矩阵 的 限制 , 但 本 研究 并 未 探索 该 方法 在 SDT-CDM Ë: 
型 中 的 有 效 性 。 此 外 ， 本 文 使 用 的 MMLE/EM 算法 尽管 高 效 ， 但 EM 算法 可 能 会 陷入 局 部 
最 优 解 ，Zeng 等 (2023) 提 出 了 Tensor-EM 算法 , 较 好 地 改善 了 局 部 最 优 解 的 困境 , 对 于 复杂 
模型 而 言 是 很 好 的 参数 估计 方法 。 
6.2 研究 结论 

本 研究 提出 了 基于 信号 检测 论 的 认 知 诊断 模型 SDT-CDM， 基 于 模拟 和 实证 
得 出 如 下 结论 : 

(DSDT-CDM 可 以 通过 EM 算法 实现 其 参数 估计 。 除 能 提供 传统 诊断 模型 不 能 提供 的 题 
目 难 度 和 区 分 度 参数 外 , 还 能 估计 得 到 每 个 选项 的 合理 性 参数 , 通过 这 些 题目 参数 信息 可 以 
对 题目 进行 修订 以 提高 其 质量 。 

(2) 模 拟 研究 结果 表明 ,SDT-CDM 参数 估计 精度 较 好 , 不同 自 变 量 对 题目 参数 和 被 试 分 
类 精度 存在 影响 。 其 中 ， 对 分 类 精度 影响 重要 性 排序 为 : 题目 质量 、 属 性 个 数 和 题目 数量 ， 
而 属性 分 布 和 样本 量 对 精度 的 影响 较 小 。 

(3) 实 证 研究 结果 表明 ，SDT-CDM 比 NRDM 有 更 好 的 模型 数据 拟 合 结果 ， 更 高 的 模式 / 
属性 分 类 准确 性 和 一 致 性 (尤其 当 某 个 属性 被 考察 次 数 较 少 时 ，SDT-CDM 展现 出 了 极 高 的 
稳定 性 )， 被 试 属性 总 体 掌 握 程 度 与 其 总 分 的 相关 结果 也 更 高 ， 且 无 需 对 干扰 项 进行 编码 。 
此 外 ,可 以 根据 两 个 易 度 参数 (epk 和 ex 和 区 分 度 参数 4 对 题目 质量 进行 诊断 及 针对 性 修订 。 


zn 


开 究 结果 ， 
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Abstract 

Cognitive diagnostic assessment (CDA) is aimed at diagnose which skills or attributes 
examinees have or do not have as the name expressed. This technique provides more useful 
feedback to examinees than a simple overall score got from classical test theory or item response 
theory. In CDA, multiple-choice (MC) is one of popular item types, which have the superiority on 
high test reliability, being easy to review, and scoring quickly and objectively. Traditionally, 
several cognitive diagnostic models (CDMs) have been developed to analyze the MC data by 
including the potential diagnostic information contained in the distractors. 

However, the response to MC items can be viewed as the process of extracting signals 
(correct options) from noises (distractors). Examinees are supposed to have perceptions of the 
plausibility of each options, and they make the decision based on the most plausible option. 
Meanwhile, there are two different states when examinee response to items: knows or does not 
know each item. Thus, the signal detection theory can be integrated into CDM to deal with MC 
data in CDA. The cognitive diagnostic model based on signal detection theory (SDT-CDM) is 
proposed in this paper and has several advantages over traditional CDMs. Firstly, it does not 
require the coding of q-vector for each option. Secondly, it provides discrimination and difficulty 
parameters that traditional CDMs cannot provide. Thirdly, it can directly express the relative 
differences between each options by plausibility parameters, providing a more comprehensive 
characterization of item quality. 

The results of two simulation studies showed that (1) the marginal maximum likelihood 
estimation approach via Expectation Maximization (MMLE/EM) algorithm could effectively 


estimate the model parameters of the SDT-CDM. (2) the SDT-CDM had high classification 
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accuracy and parameter estimation precision, and could provide option-level information for item 
quality diagnosis. (3) independent variables such as the number of attributes, item quality, and 
sample size affected the performance of the SDT-CDM, but the overall results were promising. (4) 
compared with the nominal response diagnostic model (NRDM), the SDT-CDM was more 
accurate in classifying examinees under all data conditions. 

Further, an empirical study on the TIMSS 2011 mathematics assessment were conducted 
using both the SDT-CDM and the NRDM to inspect the ecological validity for the new model. 
The results showed that the SDT-CDM had better fitting and a smaller number of model 
parameters than the NRDM. The difficulty parameters of the SDT-CDM were significantly 
correlated with those of the two- (three-) parameter logical models. And the same was true of the 
discrimination parameters for the SDT-CDM. However, the correlation between the 
discrimination parameters of the NRDM and those of the two- (three-) parameter logical models 
was low and not significant. Besides, the classification accuracy and classification consistency of 
the SDT-CDM were higher than those of the NRDM. All the results indicated that the SDT-CDM 
was worth promoting. 

Keywords: signal detection theory, cognitive diagnostic assessment, multiple-choice items, 


expectation maximization algorithm 
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